42 research outputs found

    Advances in Monocular Exemplar-based Human Body Pose Analysis: Modeling, Detection and Tracking

    Get PDF
    Esta tesis contribuye en el análisis de la postura del cuerpo humano a partir de secuencias de imágenes adquiridas con una sola cámara. Esta temática presenta un amplio rango de potenciales aplicaciones en video-vigilancia, video-juegos o aplicaciones biomédicas. Las técnicas basadas en patrones han tenido éxito, sin embargo, su precisión depende de la similitud del punto de vista de la cámara y de las propiedades de la escena entre las imágenes de entrenamiento y las de prueba. Teniendo en cuenta un conjunto de datos de entrenamiento capturado mediante un número reducido de cámaras fijas, paralelas al suelo, se han identificado y analizado tres escenarios posibles con creciente nivel de dificultad: 1) una cámara estática paralela al suelo, 2) una cámara de vigilancia fija con un ángulo de visión considerablemente diferente, y 3) una secuencia de video capturada con una cámara en movimiento o simplemente una sola imagen estática

    One-shot learning of human activity with an MAP adapted GMM and simplex-HMM

    Get PDF
    This paper presents a novel activity class representation using a single sequence for training. The contribution of this representation lays on the ability to train an one-shot learning recognition system, useful in new scenarios where capturing and labeling sequences is expensive or impractical. The method uses a universal background model of local descriptors obtained from source databases available on-line and adapts it to a new sequence in the target scenario through a maximum a posteriori adaptation. Each activity sample is encoded in a sequence of normalized bag of features and modeled by a new hidden Markov model formulation, where the expectation-maximization algorithm for training is modified to deal with observations consisting in vectors in a unit simplex. Extensive experiments in recognition have been performed using one-shot learning over the public datasets Weizmann, KTH, and IXMAS. These experiments demonstrate the discriminative properties of the representation and the validity of application in recognition systems, achieving state-of-the-art results

    The Understanding of Human Activities by Computer Vision Techniques

    Get PDF
    Esta tesis propone nuevas metodologías para el aprendizaje de actividades humanas y su clasificación en categorías. Aunque este tema ha sido ampliamente estudiado por la comunidad investigadora en visión por computador, aún encontramos importantes dificultades por resolver. En primer lugar hemos encontrado que la literatura sobre técnicas de visión por computador para el aprendizaje de actividades humanas empleando pocas secuencias de entrenamiento es escasa y además presenta resultados pobres [1] [2]. Sin embargo, este aprendizaje es una herramienta crucial en varios escenarios. Por ejemplo, un sistema de reconocimiento recién desplegado necesita mucho tiempo para adquirir nuevas secuencias de entrenamiento así que el entrenamiento con pocos ejemplos puede acelerar la puesta en funcionamiento. También la detección de comportamientos anómalos, ejemplos de los cuales son difíciles de obtener, puede beneficiarse de estas técnicas. Existen soluciones mediante técnicas de cruce dominios o empleando características invariantes, sin embargo estas soluciones omiten información del escenario objetivo la cual reduce el ruido en el sistema mejorando los resultados cuando se tiene en cuenta y ejemplos de actividades anómalas siguen siendo difíciles de obtener. Estos sistemas entrenados con poca información se enfrentan a dos problemas principales: por una parte el sistema de entrenamiento puede sufrir de inestabilidades numéricas en la estimación de los parámetros del modelo, por otra, existe una falta de información representativa proveniente de actividades diversas. Nos hemos enfrentado a estos problemas proponiendo novedosos métodos para el aprendizaje de actividades humanas usando tan solo un ejemplo, lo que se denomina one-shot learning. Nuestras propuestas se basan en sistemas generativos, derivadas de los Modelos Ocultos de Markov[3][4], puesto que cada clase de actividad debe ser aprendida con tan solo un ejemplo. Además, hemos ampliado la diversidad de información en los modelos aplicado una transferencia de información desde fuentes externas al escenario[5]. En esta tesis se explican varias propuestas y se muestra como con ellas hemos conseguidos resultados en el estado del arte en tres bases de datos públicas [6][7][8]. La segunda dificultad a la que nos hemos enfrentado es el reconocimiento de actividades sin restricciones en el escenario. En este caso no tiene por qué coincidir el escenario de entrenamiento y el de evaluación por lo que la reducción de ruido anteriormente expuesta no es aplicable. Esto supone que se pueda emplear cualquier ejemplo etiquetado para entrenamiento independientemente del escenario de origen. Esta libertad nos permite extraer vídeos desde cualquier fuente evitando la restricción en el número de ejemplos de entrenamiento. Teniendo suficientes ejemplos de entrenamiento tanto métodos generativos como discriminativos pueden ser empleados. En el momento de realización de esta tesis encontramos que el estado del arte obtiene los mejores resultados empleando métodos discriminativos, sin embargo, la mayoría de propuestas no suelen considerar la información temporal a largo plazo de las actividades[9]. Esta información puede ser crucial para distinguir entre actividades donde el orden de sub-acciones es determinante, y puede ser una ayuda en otras situaciones[10]. Para ello hemos diseñado un sistema que incluye dicha información en una Máquina de Vectores de Soporte. Además, el sistema permite cierta flexibilidad en la alineación de las secuencias a comparar, característica muy útil si la segmentación de las actividades no es perfecta. Utilizando este sistema hemos obtenido resultados en el estado del arte para cuatro bases de datos complejas sin restricciones en los escenarios[11][12][13][14]. Los trabajos realizados en esta tesis han servido para realizar tres artículos en revistas del primer cuartil [15][16][17], dos ya publicados y otro enviado. Además, se han publicado 8 artículos en congresos internacionales y uno nacional [18][19][20][21][22][23][24][25][26]. [1]Seo, H. J. and Milanfar, P. (2011). Action recognition from one example. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(5):867–882.(2011) [2]Yang, Y., Saleemi, I., and Shah, M. Discovering motion primitives for unsupervised grouping and one-shot learning of human actions, gestures, and expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(7):1635–1648. (2013) [3]Rabiner, L. R. A tutorial on hidden markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2):257–286. (1989) [4]Bishop, C. M. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA. (2006) [5]Cook, D., Feuz, K., and Krishnan, N. Transfer learning for activity recognition: a survey. Knowledge and Information Systems, pages 1–20. (2013) [6]Schuldt, C., Laptev, I., and Caputo, B. Recognizing human actions: a local svm approach. In International Conference on Pattern Recognition (ICPR). (2004) [7]Weinland, D., Ronfard, R., and Boyer, E. Free viewpoint action recognition using motion history volumes. Computer Vision and Image Understanding, 104(2-3):249–257. (2006) [8]Gorelick, L., Blank, M., Shechtman, E., Irani, M., and Basri, R. Actions as space-time shapes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(12):2247–2253. (2007) [9]Wang, H. and Schmid, C. Action recognition with improved trajectories. In IEEE International Conference on Computer Vision (ICCV). (2013) [10]Choi, J., Wang, Z., Lee, S.-C., and Jeon, W. J. A spatio-temporal pyramid matching for video retrieval. Computer Vision and Image Understanding, 117(6):660 – 669. (2013) [11]Oh, S., Hoogs, A., Perera, A., Cuntoor, N., Chen, C.-C., Lee, J. T., Mukherjee, S., Aggarwal, J. K., Lee, H., Davis, L., Swears, E., Wang, X., Ji, Q., Reddy, K., Shah, M., Vondrick, C., Pirsiavash, H., Ramanan, D., Yuen, J., Torralba, A., Song, B., Fong, A., Roy-Chowdhury, A., and Desai, M. A large-scale benchmark dataset for event recognition in surveillance video. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3153–3160. (2011) [12] Niebles, J. C., Chen, C.-W., and Fei-Fei, L. Modeling temporal structure of decomposable motion segments for activity classification. In European Conference on Computer Vision (ECCV), pages 392–405.(2010) [13]Reddy, K. K. and Shah, M. Recognizing 50 human action categories of web videos. Machine Vision and Applications, 24(5):971–981. (2013) [14]Kuehne, H., Jhuang, H., Garrote, E., Poggio, T., and Serre, T. HMDB: a large video database for human motion recognition. In IEEE International Conference on Computer Vision (ICCV). (2011) [15]Rodriguez, M., Orrite, C., Medrano, C., and Makris, D. One-shot learning of human activity with an map adapted gmm and simplex-hmm. IEEE Transactions on Cybernetics, PP(99):1–12. (2016) [16]Rodriguez, M., Orrite, C., Medrano, C., and Makris, D. A time flexible kernel framework for video-based activity recognition. Image and Vision Computing 48-49:26 – 36. (2016) [17]Rodriguez, M., Orrite, C., Medrano, C., and Makris, D. Extended Study for One-shot Learning of Human Activity by a Simplex-HMM. IEEE Transactions on Cybernetics (Enviado) [18]Orrite, C., Rodriguez, M., Medrano, C. One-shot learning of temporal sequences using a distance dependent Chinese Restaurant Process. In Proceedings of the 23nd International Conference Pattern Recognition ICPR (December 2016) [19]Rodriguez, M., Medrano, C., Herrero, E., and Orrite, C. Spectral Clustering Using Friendship Path Similarity Proceedings of the 7th Iberian Conference, IbPRIA (June 2015) [20]Orrite, C., Soler, J., Rodriguez, M., Herrero, E., and Casas, R. Image-based location recognition and scenario modelling. In Proceedings of the 10th International Conference on Computer Vision Theory and Applications, VISAPP (March 2015) [21]Castán, D., Rodríguez, M., Ortega, A., Orrite, C., and Lleida, E. Vivolab and cvlab - mediaeval 2014: Violent scenes detection affect task. In Working Notes Proceedings of the MediaEval (October 2014) [22]Orrite, C., Rodriguez, M., Herrero, E., Rogez, G., and Velastin, S. A. Automatic segmentation and recognition of human actions in monocular sequences In Proceedings of the 22nd International Conference Pattern Recognition ICPR (August 2014) [23]Rodriguez, M., Medrano, C., Herrero, E., and Orrite, C. Transfer learning of human poses for action recognition. In 4th International Workshop of Human Behavior Unterstanding (HBU). (October 2013) [24]Rodriguez, M., Orrite, C., and Medrano, C. Human action recognition with limited labelled data. In Actas del III Workshop de Reconocimiento de Formas y Analisis de Imagenes, WSRFAI. (September 2013) [25]Orrite, C., Monforte, P., Rodriguez, M., and Herrero, E. Human Action Recognition under Partial Occlusions . Proceedings of the 6th Iberian Conference, IbPRIA (June 2013) [26]Orrite, C., Rodriguez, M., and Montañes, M. One sequence learning of human actions. In 2nd International Workshop of Human Behavior Unterstanding (HBU). (November 2011)This thesis provides some novel frameworks for learning human activities and for further classifying them into categories. This field of research has been largely studied by the computer vision community however there are still many drawbacks to solve. First, we have found few proposals in the literature for learning human activities from limited number of sequences. However, this learning is critical in several scenarios. For instance, in the initial stage after a system installation the capture of activity examples is time expensive and therefore, the learning with limited examples may accelerate the operational launch of the system. Moreover, examples for training abnormal behaviour are hardly obtainable and their learning may benefit from the same techniques. This problem is solved by some approaches, such as cross domain implementations or the use of invariant features, but they do not consider the specific scenario information which is useful for reducing the clutter and improving the results. Systems trained with scarce information face two main problems: on the one hand, the training process may suffer from numerical instabilities while estimating the model parameters; on the other hand, the model lacks of representative information coming from a diverse set of activity classes. We have dealt with these problems providing some novel approaches for learning human activities from one example, what is called a one-shot learning method. To do so, we have proposed generative approaches based on Hidden Markov Models as we need to learn each activity class from only one example. In addition, we have transferred information from external sources in order to introduce diverse information into the model. This thesis explains our proposals and shows how these methods achieve state-of-the-art results in three public datasets. Second, we have studied the recognition of human activities in unconstrained scenarios. In this case, the scenario may or may not be repeated in training and evaluation and therefore the clutter reduction previously mentioned does not happen. On the other hand, we can use any labelled video for training the system independently of the target scenario. This freedom allows the extraction of videos from the Internet dismissing the implicit constrains when training with limited examples. Having plenty of training examples both, generative and discriminative, methods can be used and by the time this thesis has been made the state-of-the-art has been achieved by discriminative ones. However, most of the methods usually fail when taking into consideration long-term information of the activities. This information is critical when comparing activities where the order of sub-actions is important, and may be useful in other comparisons as well. Thus, we have designed a framework that incorporates this information in a discriminative classifier. In addition, this method introduces some flexibility for sequence alignment, useful feature when the activity segmentation is not exact. Using this framework we have obtained state-of-the-art results in four challenging public datasets with unconstrained scenarios

    Magnitude Sensitive Competitive Neural Networks

    Get PDF
    En esta Tesis se presentan un conjunto de redes neuronales llamadas Magnitude Sensitive Competitive Neural Networks (MSCNNs). Se trata de un conjunto de algoritmos de Competitive Learning que incluyen un término de magnitud como un factor de modulación de la distancia usada en la competición. Al igual que otros métodos competitivos, MSCNNs realizan la cuantización vectorial de los datos, pero el término de magnitud guía el entrenamiento de los centroides de modo que se representan con alto detalle las zonas deseadas, definidas por la magnitud. Estas redes se han comparado con otros algoritmos de cuantización vectorial en diversos ejemplos de interpolación, reducción de color, modelado de superficies, clasificación, y varios ejemplos sencillos de demostración. Además se introduce un nuevo algoritmo de compresión de imágenes, MSIC (Magnitude Sensitive Image Compression), que hace uso de los algoritmos mencionados previamente, y que consigue una compresión de la imagen variable según una magnitud definida por el usuario. Los resultados muestran que las nuevas redes neuronales MSCNNs son más versátiles que otros algoritmos de aprendizaje competitivo, y presentan una clara mejora en cuantización vectorial sobre ellos cuando el dato está sopesado por una magnitud que indica el ¿interés¿ de cada muestra

    Detection of tennis activities with wearable sensors

    Get PDF
    This paper aims to design and implement a system capable of distinguishing between different activities carried out during a tennis match. The goal is to achieve the correct classification of a set of tennis strokes. The system must exhibit robustness to the variability of the height, age or sex of any subject that performs the actions. A new database is developed to meet this objective. The system is based on two sensor nodes using Bluetooth Low Energy (BLE) wireless technology to communicate with a PC that acts as a central device to collect the information received by the sensors. The data provided by these sensors are processed to calculate their spectrograms. Through the application of innovative deep learning techniques with semi-supervised training, it is possible to carry out the extraction of characteristics and the classification of activities. Preliminary results obtained with a data set of eight players, four women and four men have shown that our approach is able to address the problem of the diversity of human constitutions, weight and sex of different players, providing accuracy greater than 96.5% to recognize the tennis strokes of a new player never seen before by the system

    Seguimiento de objetos basado en características y estructura

    Get PDF
    Este proyecto pretende implementar un algoritmo capaz de realizar el seguimiento de un objeto dentro de una secuencia de vídeo, superando las carencias que presentan algunos de los métodos utilizados en la actualidad. El procedimiento se basa en tres elementos fundamentales: extractor de características, algoritmo de seguimiento y modelado estructural del objeto. Como extractor de características del objeto a seguir planteamos la utilización de histogramas de gradientes orientados (HOGs) así como descriptores del tipo SIFT (Scale Invariant Feature Transform) o SURF (Speeded-Up Robust Features). El algoritmo de seguimiento contemplado es Mean shift teniendo en cuenta que se realizará un seguimiento en posición, orientación y escala. Finalmente, para hacer una mejor aproximación y corregir las carencias del algoritmo basado en apariencia nombrado, se hace un estudio de los puntos corregidos en cada una de las escalas, mediante un método estructural que se basa en la Triangulación de Delaunay y las coordenadas baricéntricas. Éste otro algoritmo, crea una red de triángulos para cada fotograma y escala, en la que se podrán modificar las posiciones de cada uno de los puntos en base a sus coordenadas baricéntricas respecto a alguno de los triángulos contenidos en la red. La propuesta se comparará con uno de los algoritmos considerados en el estado del arte, cuya principal limitación es el alto coste computacional que conlleva, consistente en la selección previa de un conjunto de puntos representativos del objeto en el primer fotograma, para los cuales se obtendrán una matriz de características mediante el descriptor de características SIFT, que realiza la búsqueda de descriptores en distintas escalas. El objeto es reconocido en una nueva imagen comparando las características de cada punto del objeto con los almacenados en el primer fotograma y encontrando el candidato más apropiado basándose en la distancia Euclídea y el método RANSAC que elige emparejamientos de puntos y calcula la transformada a la que han sido expuestos para posteriormente aplicarla al resto de puntos característicos de la imagen. Con todo ello se pretende crear un único método capaz de realizar el seguimiento de un objeto que sufre transformaciones afines, así como oclusiones, minimizando el tiempo

    Localización de objetos en tiempo real en imágenes para entornos domésticos

    Get PDF
    Este trabajo se enmarca dentro del proyecto Memory Lane cuyo objetivo principal consiste en el desarrollo de un asistente para personas que sufren pérdidas de memoria. Este asistente será capaz de recordar desde dónde han dejado algún objeto hasta una receta de cocina. En este trabajo se busca diseñar un sistema que sea capaz de aprender a reconocer objetos. De tal manera que el sistema, una vez entrenado, esté preparado para de responder en el menor tiempo posible que objetos contiene una cierta imagen de entrada. El asistente de Memory Lane, deberá tener la información disponible lo más rápido posible. Cabe indicar que los objetos a reconocer pueden estar a distintas distancias de la cámara y en distintos ángulos, es decir, los objetos pueden aparece en cualquier punto de la imagen y con cualquier tamaño y orientación. Para ello se emplea la red neuronal convolucional (CNN) ConvNet como extractor de características. Tras ello, se reducen las características eligiendo máximos y empleando Linear Discriminat Analysis (LDA). Se entrena un perceptrón multicapa (MLP) como clasificador, al que luego se le pasará una imagen en varios subconjuntos y escalas. Combinando la información de salida del MLP se construirá un mapa de calor que permitirá detectar los límites de los distintos objetos presentes en dicha imagen

    Sistema de geolocalización basado en imágenes para dispositivos móviles

    Get PDF
    En este proyecto fin de máster, se muestra una aplicación de realidad aumentada capaz de geolocalizar a un usuario en un entorno conocido. El sistema ha sido entrenado para funcionar en una localización real, la plaza San Felipe de Zaragoza. Al tomar una foto de la plaza, en función de los edificios que contenga la imagen, el sistema es capaz de determinar la posición desde la cual se ha tomado. Una vez realizada esta ubicación tridimensional, se superpone en la fotografía tomada una imagen 3D de la ‘Torre Nueva’, una antigua torre mudéjar que se encontraba en esa misma plaza hasta 1892 que fue derruida. Esta aplicación funciona de forma externa, enviando la imagen tomada por el terminal a un servidor remoto que realiza los cálculos. Todo este proceso resulta costoso en tiempo, lo que provoca que la aplicación no se pueda ejecutar en tiempo real. Tanto el tiempo de envío al servidor como la extracción de características de las imágenes en el proyecto previo requieren de un tiempo superior al deseado en una aplicación de tiempo real. En este proyecto, se pretende implementar todas las operaciones del cálculo de la localización en el mismo terminal en el que se realiza la fotografía. Además, se muestra un estudio de técnicas de extracción de características para mejorar este tiempo de cómputo. Estas características serán los keypoints o puntos relevantes de la imagen. Estos keypoints se extraen mediante algoritmos de visión por computador llamados descriptores. En el proyecto previo se utiliza el descriptor SIFT que, como ya se ha mencionado, resulta costoso computacionalmente. En este proyecto el descriptor SIFT es sustituido por el descriptor BRISK, mucho más veloz, aunque menos preciso en su cometido. Una vez se han obtenido los puntos relevantes de dos imágenes distintas, realiza un emparejamiento entre ellos con un algoritmo de matching. Es de esta forma en la cual el sistema se localiza en el entorno 3D. Los algoritmos de matching emparejan los keypoints más probables de ambas imágenes. Sin embargo, este proceso suele presentar falsos emparejamientos o espurios que deben ser eliminados. En este proyecto se presentan nuevas técnicas de realizar este filtrado para asegurar que los emparejamientos producidos sean robustos y coherentes entre sí. En una base de datos de imágenes de la plaza San Felipe, se pueden emparejar las imágenes entre sí siguiendo el proceso anterior para obtener un modelado 3D del entorno. Con este modelado del mundo 3D, el sistema es capaz de emparejar una fotografía nueva y localizar la posición de la cámara para superponer la ‘Torre Nueva’ en la posición correcta

    Reconocimiento de acciones humanas en secuencias de vídeo

    Get PDF
    En este proyecto se pretende conseguir el reconocimiento de acciones humanas en secuencias de vídeo. El tipo de acciones que se va a tratar consistirá en acciones simples ejecutadas por una sola persona en diferentes posiciones (por ejemplo, dar una patada, sentarse en el suelo, etc). El mayor problema que se abordará consistirá en el reconocimiento de estas acciones en situaciones de oclusión parcial de la figura, lo cual se produce en multitud de ocasiones en la vida real. Trabajaremos con secuencias de vídeo de dominio público y libre acceso. Las secuencias de vídeo provienen de tres bases de datos de uso público que ya han sido utilizadas en estudios anteriores con un fin similar al nuestro, el reconocimiento de acciones humanas. Dichas secuencias podrán estar grabadas desde distintos puntos de vista con diferentes cámaras. Esto requiere un procesamiento previo de las imágenes para la extracción de características que se utilizarán en el clasificador. Es en este punto donde introducimos un nuevo descriptor ideado por nosotros basándonos en la dirección de los movimientos realizados en la ejecución de una acción. Además, nos encontramos con el problema de implementar un método de normalización de los datos de entrada al clasificador que sea independiente del grado de oclusión de la figura en la imagen. Durante el desarrollo de este sistema de reconocimiento se emplean varias técnicas de procesado digital de imagen para la extracción de características. Además, el modelado de la acción humana se llevará a cabo mediante Modelos Ocultos de Markov (HMM), y su posterior reconocimiento se realizará también basándonos en dicha metodología

    Técnicas de visión por computador para aplicaciones de realidad aumentada en exteriores

    Get PDF
    La generación eficiente de puntos clave a partir de imágenes es un problema estudiado en laliteratura y que constituye la base de muchas aplicaciones de visión por ordenar. A pesar de lagran cantidad de literatura que aborda este tema, sigue siendo un asunto desafiante paralograr resultados de coincidencias estables y válidos en situaciones complejas, como puedeser, enfrentamientos con variación de iluminación, cambios de escala y forma, ruido de fondo,cambio de traza debido al movimiento de una cámara, oclusiones parciales en la imagen, etc.En este proyecto final de máster, se propone un nuevo análisis de correspondencias de puntos,basado en la triangulación Delaunay entre los puntos clave. Conformando un grafo deatributos, en el que cada nodo corresponde a un punto clave proporcionado por un detectorde características, que tiene un descriptor asignado. Este gráfico piramidal se descomponeposteriormente en diversos subgrafos, facilitando el emparejamiento, optimización de costes ysubsanando problemas de oclusiones de objetos.Cabe destacar, que todos los algoritmos desarrollados e implementados han sido evaluados yverificados en ambientes exteriores a través de una base de datos, con el principal objetivo deque las nuevas técnicas filtradas aseguren que los emparejamientos sean más robustos yconfiables ante los diversos problemas que se presentan en la actualidad.<br /
    corecore